max rank | avg. rank | sentence |
---|---|---|
348 | 149.5714 | Manoma, pasaulyje gali būti apie 20 mln. |
378 | 267.2000 | Lietuvos sporto mokslo tarybos pirmininkas. |
454 | 304.8750 | Klaipėdos rajono skyriaus narys, Klaipėdos rajono skyriaus pirmininkas. |
497 | 262.4000 | Kauno miesto savivaldybės tarybos narys. |
525 | 185.2500 | Manoma, kad šiuo metu yra apie 200 tūkst. |
525 | 188.2857 | Tuo metu mieste gyveno apie 200 žmonių. |
582 | 243.8000 | Buvo Lietuvos – Vokietijos draugijos narys. |
610 | 226.2857 | Tai didelis pramonės, kultūros ir istorijos centras. |
632 | 376.5714 | Pagal istoriją yra pastatyta keletas kino filmų. |
647 | 287.8182 | Ji paliko mokyklą 14 metų ir nuo to laiko mokėsi pati. |
678 | 245.5714 | Šiuo metu gyvena ir kuria Vilniuje, Lietuvoje. |
680 | 233.2857 | Jis reiškia „gyventojai iš pasaulio centro kaimo“. |
686 | 434.1667 | Tais pačiais metais išleido naują albumą „ |
688 | 216.3333 | Taip pat čia auga ir gyvena daug įvairių augalų ir gyvūnų rūšių. |
698 | 302.3750 | Tai pagrindinis šalies jūrų uostas ir prekybos centras. |
724 | 341.3750 | Šio tipo žmonės gyveno maždaug prieš 40 tūkst. |
738 | 312.5000 | Yra 2 bažnyčios, parkas, kultūros namai. |
740 | 341.0000 | Miestas yra prekybos, transporto ir pramonės centras. |
745 | 337.1667 | Veikia Šiaurės ir Rytų Europos šalyse ( |
751 | 409.3333 | Tačiau jis dalyvavo TSRS šachmatų varžybose. |
759 | 377.2857 | Taip pat elektros energijos gamyba, maisto pramonė. |
766 | 464.8000 | Lietuvos sporto informacijos centro direktorius. |
777 | 355.7778 | Tai pagrindinis verslo, prekybos, transporto ir kultūros centras šalyje. |
784 | 476.4000 | Tais pačiais metais išleistas albumas „ |
806 | 417.8000 | Kauno rajono savivaldybės tarybos narė. |
839 | 255.5556 | Tai šalies ekonomikos ir kultūros centras ir pagrindinis uostas. |
868 | 404.0000 | “ yra kita daina tuo pačiu pavadinimu). |
882 | 387.8750 | Taip teritorija ir miestas tapo Kinijos imperijos dalimi. |
894 | 479.1250 | Buvo 18 metrų aukščio ir 11 metrų pločio. |
899 | 331.0000 | Nuo šios dienos iki metų galo lieka 15 dienų. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II